X = [[1, 0], [5, 1], [6, 4], [4, 2], [3, 2]]
y = [0, 1, 1, 0, 0]

import warnings
warnings.filterwarnings('ignore')

from sklearn.neural_network import MLPClassifier
mlp =MLPClassifier()
mlp.fit(X, y)

MLPClassifier()

MLPClassifier()

y_pred = mlp.predict(X)

import pandas as pd
a = pd.DataFrame()  # 创建一个空DataFrame 
a['预测值'] = list(y_pred)
a['实际值'] = list(y)

a

from sklearn.neural_network import MLPRegressor
X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]]
y = [1, 2, 3, 4, 5]

model = MLPRegressor(random_state=123)  # 设置random_state随机状态参数, 使得每次训练的模型都是一样的
model.fit(X, y)

print(model.predict([[5, 5]]))

[2.85598566]

import pandas as pd
df = pd.read_excel('产品评价.xlsx')
df.head()

import warnings 
warnings.filterwarnings('ignore')

# 通过第2章讲的iloc获取数据表DataFrame第一行信息，0表示第一行
df.iloc[0]

客户编号                                                    1
评论      是iPhone8 XR正品，按键屏幕反应蛮快的很灵活，屏幕6.0的不算很大，刚刚好，这款面容...
评价                                                      1
Name: 0, dtype: object

# jieba库分词示例
import jieba
# word = list(jieba.cut(df.iloc[0]['评论']))

word = ' '.join(jieba.cut(df.iloc[0]['评论']))

word

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\19559\AppData\Local\Temp\jieba.cache
Loading model cost 0.518 seconds.
Prefix dict has been built successfully.

'是 iPhone8   XR 正品 ， 按键 屏幕 反应 蛮快 的 很 灵活 ， 屏幕 6.0 的 不算 很大 ， 刚刚 好 ， 这 款 面容 识别 开锁 比 指纹 方便 多 了 ， 内外 的 整体 看起来 很 美观 ， 整机 子 不算 是 很厚感 ， 像素 高 比较 清晰 ， 双卡 双待 ， 续航 强 ， 跟 8plus 差价 300 元 ， 还是 选 XR 款好 ， 性能 不错 ， 处理器 、 芯片 也 是 最新 一代'

# 遍历整张表格，对所有评论进行分词
words = []
for i, row in df.iterrows():
    word = jieba.cut(row['评论'])
    result = ' '.join(word) 
    words.append(result)

words[0:2]

['是 iPhone8   XR 正品 ， 按键 屏幕 反应 蛮快 的 很 灵活 ， 屏幕 6.0 的 不算 很大 ， 刚刚 好 ， 这 款 面容 识别 开锁 比 指纹 方便 多 了 ， 内外 的 整体 看起来 很 美观 ， 整机 子 不算 是 很厚感 ， 像素 高 比较 清晰 ， 双卡 双待 ， 续航 强 ， 跟 8plus 差价 300 元 ， 还是 选 XR 款好 ， 性能 不错 ， 处理器 、 芯片 也 是 最新 一代',
 '外形 外观 ： 外光 非常 漂亮 ， 黑色 的 非常 大气 。 适合 男士 拥有 。 屏幕 音效 ： 刚 开机 就 下载 了 一个 QQ 音乐 试 了 一下 。   音效 还是 非常 不错 的 。 拍照 效果 ： 拍照 很 清晰 ， 照亮 你 脸上 的 痘痘 。 运行 速度 ： 运行 速度 就 不用说 了 。   一个 字快 。 待机时间 ： 待机 很 不错 。 用 一段时间 再 来 评价 。 其他 特色 ： 个人感觉 比 Ｘ 好 。   可能 是因为 上手 的 手感 比较 好 吧 ， 总之 还是 值得 入手 的']

# 如果对上面过程如果熟悉后，也可以直接写成如下的合并代码形式
words = []
for i, row in df.iterrows():
    words.append(' '.join(jieba.cut(row['评论'])))

words[0:2]

['是 iPhone8   XR 正品 ， 按键 屏幕 反应 蛮快 的 很 灵活 ， 屏幕 6.0 的 不算 很大 ， 刚刚 好 ， 这 款 面容 识别 开锁 比 指纹 方便 多 了 ， 内外 的 整体 看起来 很 美观 ， 整机 子 不算 是 很厚感 ， 像素 高 比较 清晰 ， 双卡 双待 ， 续航 强 ， 跟 8plus 差价 300 元 ， 还是 选 XR 款好 ， 性能 不错 ， 处理器 、 芯片 也 是 最新 一代',
 '外形 外观 ： 外光 非常 漂亮 ， 黑色 的 非常 大气 。 适合 男士 拥有 。 屏幕 音效 ： 刚 开机 就 下载 了 一个 QQ 音乐 试 了 一下 。   音效 还是 非常 不错 的 。 拍照 效果 ： 拍照 很 清晰 ， 照亮 你 脸上 的 痘痘 。 运行 速度 ： 运行 速度 就 不用说 了 。   一个 字快 。 待机时间 ： 待机 很 不错 。 用 一段时间 再 来 评价 。 其他 特色 ： 个人感觉 比 Ｘ 好 。   可能 是因为 上手 的 手感 比较 好 吧 ， 总之 还是 值得 入手 的']

# # iterrows()函数相关知识点，不熟悉DataFrame数据表遍历的话，可以把下面的注释取消了，看看效果
# for i, row in df.iterrows():
#     print(i)
#     print(row)

# 文本向量化CountVectorizer()函数的使用技巧：使用示例
from sklearn.feature_extraction.text import CountVectorizer
test = ['手机 外观 漂亮 非常', '手机 图片 清晰']
vect = CountVectorizer()
X = vect.fit_transform(test)

# for i in X:
#     print(i)
# X = X.toarray()

print(X)

print(type(X))

  (0, 2)	1
  (0, 1)	1
  (0, 4)	1
  (0, 5)	1
  (1, 2)	1
  (1, 0)	1
  (1, 3)	1
<class 'scipy.sparse._csr.csr_matrix'>

print(X.toarray())

X = X.toarray()

[[0 1 1 0 1 1]
 [1 0 1 1 0 0]]

words_bag = vect.vocabulary_
# print(words_bag)

# print(words_bag)

# print(list(words_bag.items()).sort())

# 按值排序
words_bag = dict(sorted(words_bag.items(), key=lambda item: item[1]))
print(words_bag)

# print(words_bag.keys())

{'图片': 0, '外观': 1, '手机': 2, '清晰': 3, '漂亮': 4, '非常': 5}

# 忽略这部分

a = [i[1] for i in words_bag.items()]

print(a)

a = [i for i in words_bag.items()]

print(a)

a = sorted([1,2,3,-2.5], key=lambda x: x**2)

print(a)

[0, 1, 2, 3, 4, 5]
[('图片', 0), ('外观', 1), ('手机', 2), ('清晰', 3), ('漂亮', 4), ('非常', 5)]
[1, 2, -2.5, 3]

X = pd.DataFrame(columns=words_bag.keys(), data = X)

X

# 也忽略这部分

import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

# 示例训练文本
test = ['手机 外观 漂亮 非常', '手机 图片 清晰']

# 自定义函数，生成按词首次出现顺序排列的词汇表
def get_ordered_vocabulary(texts):
    ordered_words = []
    for text in texts:
        words = text.split()
        for word in words:
            if word not in ordered_words:
                ordered_words.append(word)
    return {word: index for index, word in enumerate(ordered_words)}

# 生成有序的词汇表
ordered_words_bag = get_ordered_vocabulary(test)

# 使用 CountVectorizer 时，传入自定义的词汇表
vect = CountVectorizer(vocabulary=ordered_words_bag.keys())  # 关键修改
X = vect.fit_transform(test)

# 按照有序词汇表的顺序排列 DataFrame 的列
X = pd.DataFrame(columns=list(ordered_words_bag.keys()), data=X.toarray())

print("有序的词汇表:", ordered_words_bag)
print("按顺序排列的 DataFrame:")
print(X)

有序的词汇表: {'手机': 0, '外观': 1, '漂亮': 2, '非常': 3, '图片': 4, '清晰': 5}
按顺序排列的 DataFrame:
   手机  外观  漂亮  非常  图片  清晰
0   1   1   1   1   0   0
1   1   0   0   0   1   1

# 实际应用
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()
X = vect.fit_transform(words)
X = X.toarray()
print(X)

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]

words_bag = vect.vocabulary_

print(list(words_bag.items())[:20])

[('iphone8', 194), ('xr', 264), ('正品', 2660), ('按键', 2221), ('屏幕', 1798), ('反应', 1210), ('蛮快', 3492), ('灵活', 2843), ('不算', 517), ('很大', 1967), ('刚刚', 1031), ('面容', 3979), ('识别', 3570), ('开锁', 1915), ('指纹', 2218), ('方便', 2362), ('内外', 941), ('整体', 2341), ('看起来', 3101), ('美观', 3345)]

words_bag = dict(sorted(words_bag.items(), key = lambda item: item[1],reverse=False))

print(list(words_bag.items())[1000:1020])

# 似乎对汉字排序了

[('出事', 1000), ('出仓', 1001), ('出厂', 1002), ('出名', 1003), ('出品', 1004), ('出售', 1005), ('出奇', 1006), ('出小', 1007), ('出手', 1008), ('出来', 1009), ('出汗', 1010), ('出现', 1011), ('出色', 1012), ('出超', 1013), ('出错', 1014), ('出门', 1015), ('出门在外', 1016), ('分别', 1017), ('分期', 1018), ('分辨', 1019)]

len(words_bag)

4075

import pandas as pd
# pd.set_option('display.max_columns', None)  # 添加这行代码可以显示所有列，如果讲None改成500，则表示可最多显示500列
# pd.set_option('display.max_rows', None)  # 添加这行代码可以显示所有行，如果讲None改成500，则表示可最多显示500行
X = pd.DataFrame(X, columns=words_bag.keys())

X.head()

# 忽略这个

non_zero_column_names = [col for col, value in X.iloc[0].items() if value != 0]

print(non_zero_column_names)

['300', '8plus', 'iphone8', 'xr', '一代', '不算', '不错', '像素', '内外', '刚刚', '双卡', '双待', '反应', '处理器', '屏幕', '差价', '开锁', '很厚感', '很大', '性能', '指纹', '按键', '整体', '整机', '方便', '最新', '款好', '正品', '比较', '清晰', '灵活', '看起来', '续航', '美观', '芯片', '蛮快', '识别', '还是', '面容']

y = df['评价']
y.head()

0    1
1    1
2    1
3    1
4    1
Name: 评价, dtype: int64

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=1)

from sklearn.neural_network import MLPClassifier
mlp =MLPClassifier(random_state=123)  # 因为模型运行具有随机性，如果想让每次运行结果一致，可以设置random_state随机参数为任一数字，如MLPClassifier(random_state=123)
mlp.fit(X_train, y_train)

MLPClassifier(random_state=123)

MLPClassifier(random_state=123)

y_pred = mlp.predict(X_test)
print(y_pred)  # 因为模型运行具有随机性，所以这里得到的结果可能和书上的略有不同，如果想让每次运行结果一致，可以设置random_state随机参数为任一数字，如MLPClassifier(random_state=123)

[1 0 0 1 0 1 1 1 1 1 0 1 1 0 0 1 0 1 1 1 0 1 0 1 1 1 0 1 0 1 1 0 0 1 0 1 0
 1 1 0 1 0 0 1 1 1 0 1 1 0 1 0 1 0 1 0 0 1 1 0 1 1 1 1 1 0 1 1 0 1 1 1 0 1
 1 1 1 0 1 0 1 0 1 0 0 1 1 0 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 1 0 0 1 1]

a = pd.DataFrame()  # 创建一个空DataFrame 
a['预测值'] = list(y_pred)
a['实际值'] = list(y_test)
a.head()

# 获取预测准确度
from sklearn.metrics import accuracy_score
score = accuracy_score(y_pred, y_test)
score

0.9814814814814815

# 通过模型自带的score()函数也可以获取预测准确度
mlp.score(X_test, y_test)

0.9814814814814815

# 对输入的评价进行预测
# comment = input('请输入您对本商品的评价：')
comment = '但我的心每分每刻仍然被她占有'
comment = [' '.join(jieba.cut(comment))]
print(comment)
X_try = vect.transform(comment)
y_pred = mlp.predict(X_try.toarray())
print(y_pred)

['但 我 的 心 每分 每刻 仍然 被 她 占有']
[0]

# 朴素贝叶斯模型对比
from sklearn.naive_bayes import GaussianNB
nb_clf = GaussianNB()
nb_clf.fit(X_train,y_train)

y_pred = nb_clf.predict(X_test)
print(y_pred)

from sklearn.metrics import accuracy_score
score = accuracy_score(y_pred, y_test)
print(score)

[1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 0 1 1 1 0 1 0 1 1 1 0 1 0 1 1 0 1 1 1 1 1
 1 1 1 1 0 1 1 1 1 0 1 1 0 1 0 1 1 1 0 1 1 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1
 1 1 1 0 1 0 1 0 1 1 0 1 1 0 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 1 1 1 1 1]
0.8703703703703703

	...	黑色
0	...	0
1	...	1
2	...	0
3	...	0
4	...	0

第16章深度学习初窥之神经网络模型¶

16.1 深度学习基础: 神经网络模型¶

16.1.1 神经网络模型的基本原理¶

1. 单层神经网络模型¶

2. 多层神经网络模型¶

16.1.2 神经网络模型的简单代码实现¶

补充知识点: 神经网络回归模型¶

16.2 案例实战: 用户评论情感分析模型¶

16.2.1 案例背景¶

16.2.2 数据读取、中文分词、文本向量化¶

16.2.3 神经网络模型的搭建与使用¶

模型对比¶

	客户编号	评论	评价
0	1	是iPhone8 XR正品，按键屏幕反应蛮快的很灵活，屏幕6.0的不算很大，刚刚好，这款面容...	1
1	2	外形外观：外光非常漂亮，黑色的非常大气。适合男士拥有。屏幕音效：刚开机就下载了一个QQ音乐试...	1
2	3	从苹果4s，到6s，再到xr，就是喜欢苹果的手感和风格，视频流畅，图片清晰，纠结了好久买哪个...	1
3	4	主要是手感，太沉了，比苹果6，沉一倍，厚太多了，看中双卡双待机，刚买回来用，待机时间还不错，...	1
4	5	外形外观：红色超级好看，送妈妈的。屏幕音效：音效还可以，也什么特别的，屏幕看着也挺舒服。拍照...	1

	...	黑色
0	...	0
1	...	1
2	...	0
3	...	0
4	...	0

	预测值	实际值
0	0	0
1	1	1
2	1	1
3	0	0
4	0	0

	预测值	实际值
0	1	1
1	0	0
2	0	1
3	1	1
4	0	0

	...	黑色
0	...	0
1	...	1
2	...	0
3	...	0
4	...	0

第16章 深度学习初窥之神经网络模型¶

16.1 深度学习基础: 神经网络模型¶

16.1.1 神经网络模型的基本原理¶

1. 单层神经网络模型¶

2. 多层神经网络模型¶

16.1.2 神经网络模型的简单代码实现¶

补充知识点: 神经网络回归模型¶

16.2 案例实战: 用户评论情感分析模型¶

16.2.1 案例背景¶

16.2.2 数据读取、中文分词、文本向量化¶

16.2.3 神经网络模型的搭建与使用¶

模型对比¶

第16章深度学习初窥之神经网络模型¶

	...	黑色
0	...	0
1	...	1
2	...	0
3	...	0
4	...	0